http://www.abbs.info e-mail:[email protected]

ISSN 0582-9879                                          ACTA BIOCHIMICA et BIOPHYSICA SINICA 2003, 35(8): 734–740                                    CN 31-1300/Q

 

Short Communication

A Novel Approach for Peptide Identification by Tandem Mass Spectrometry

SHENG Quan-Hu#, TANG Hai-Xu1#, XIE Tao2, WANG Lian-Shui, DING Da-Fu*

( Key Laboratory of Proteomics, Institute of Biochemistry and Cell Biology, Shanghai Institutes for Biological Sciences, the Chinese Academy of Sciences, Shanghai 200031, China; 1Department of Computer Science and Engineering, University of California, San Diego, San Diego, CA92093, USA; 2Institute for Systems Biology, 1441 North 34th Street, Seattle, Washington 98103, USA )

 

Abstract        High throughput scoring algorithms that are used to find the match of a tandem mass spectrum to a predicted mass spectrum of a peptide within a database have been applied in shotgun proteomics. However, these algorithms could produce a significant number of incorrect peptide identifications. Here a novel approach was developed to scoring tandem mass spectra against a peptide database, in which fragment ion probabilities, number of enzymatic termini of candidate peptides, matching quality and match pattern between experimental and theoretical spectrum were considered. Benchmarking the novel scorer on a large set of experimental MS/MS spectra, it is demonstrated that PepSearch performs significantly better than the widely used software SEQUEST. The PepSearch software is available at http://compbio.sibsnet.org/projects/pepsearch.

 

Key word       sproteomics; database searching; peptide identification; probabilistic model; tandem mass spectrometry

_____________________________________

Received: May 28, 2003        Accepted: June 12, 2003

This work was supported by the grants from the National High Technology Research and Development Program of China (863 Program) (No. 2002AA234021), Knowledge Innovation Program of the Chinese Academy of Sciences (No. KJCX1-08), Shanghai Science and Technology Commission (No. 00JC14018), and the Major Program of the National Natural Science Foundation of China (No. 39990600-03)

#Who contributed equally to this article

*Corresponding author: Tel, 86-21-54921254; Fax, 86-21-54921011; e-mail, [email protected]

 

用于串联质谱鉴定多肽的计量方法

盛泉虎#    汤海旭1#  解涛2  王连水     丁达夫*

( 中国科学院上海生命科学研究院生物化学与细胞生物学研究所蛋白质组学重点实验室, 上海 200031;1加州大学圣地亚哥分校计算科学与工程系, 圣地亚哥 92093; 2系统生物学研究所, 华盛顿 98103 )

 

摘要       目前已有多种对串联质谱与数据库中多肽的理论质谱的一致性进行评估的高通量计量算法用于鸟枪法蛋白质组学(shotgun proteomics)研究。 然而这些方法操作时存在大量错误的多肽鉴定。 这里提出一种新的串联质谱识别多肽序列的计量算法。 该算法综合考虑了串联质谱中不同离子出现的概率、 多肽的酶切位点数、 理论离子与实验离子的匹配程度和匹配模式。 对大容量的串联质谱数据集的测试表明, 根据算法开发的软件PepSearch比目前最常用的软件SEQUEST有更好的鉴定准确性。 PepSearch可从http://compbio.sibsnet.org/projects/pepsearch下载。

 

关键词   蛋白质组信息学; 数据库搜索; 多肽鉴定; 概率模型; 串联质谱

 

串联质谱检测(tandem mass spectrometry, MS/MS)已经成为高通量蛋白质组学的核心技术, 特别对于蛋白质复合物的鉴定[1] 蛋白质互联网的解析[2] 信号转导途径的分析[3] 代谢途径的重构[4], 以及细胞行为的模拟[5]等方面会有重大的应用。

蛋白质组学的目标是识别与鉴定细胞在各种条件下表达的所有蛋白质, 因此串联质谱解析的样本是复杂的蛋白质混合物。 通常, 样本蛋白质先由胰蛋白酶酶解成肽段, 形成多肽混合物。 此混合物送入多维高压液相色谱仪及串联质谱仪, 在一级质谱中进行肽段离子化, 被选离子(母离子)经碰撞诱导解离(collision induced dissociation, CID) 在二级质谱中产生串联质谱。 于是必须建立一种计量方法来判定产生此质谱的多肽, 最终根据这些多肽判定来实现样本中的所有蛋白质的鉴定。 这就是目前所谓的鸟枪蛋白质组学策略(shotgun proteomics)[6] 通常的计量方法把串联质谱跟多肽序列数据库构成的每条理论质谱比较、 计分, 以最高分判定质谱的多肽。

Eng等人[7]最早(1994)提出互相关(cross-correlation)计量方法, 即计算实验谱与理论谱之间的相关系数。 该方法至今仍是LC-MS/MS质谱分析中常用商品软件SEQUEST采用的计量方法。 此后涌现了不少多肽鉴定软件, Mascot[8] MOWSE[9] MS-Tag[10] SONOR[11] ProbID[12]Protocall[13], 使用不同的计量方法以质谱来搜索蛋白质序列数据库。 然而, 这些方法均有显著的鉴定误差率[14] 更有效的计量方法是对特定的实验谱的出现概率建立统计模型。 Dancik[15]在通过串联质谱进行多肽从头测序(de novo peptide sequencing), 提出一种实验谱中不同离子类型出现的概率模型。 这个模型所需要的参数可从一个经过人工注释的质谱数据集中学习得到。 该方法可以避免很多其他方法中武断的假设[16] Bafna[17]综合考虑离子出现概率、 杂谱以及仪器误差等因素进一步发展了这个模型。 Zhang[12]提出了用于对实验谱和理论谱之间一致性评估的后验概率计量方法。 然而, 他们对离子类型和离子强度等的考虑还不够完善。

我们对上述计量模型作如下改进: (1)考虑一个多肽可能产生的大多数离子类型; (2)考虑到肽在碰撞诱导解离中碎裂是由肽的物化性质与碰撞能量控制的随机过程, 而不同类型的离子具有确定的出现概率, 设计了新的计量算法。 基于新的计量算法, 开发了多肽鉴定软件PepSearch 通过对Keller[14]提供的一个实验谱数据集的测试, PepSearch的鉴定准确性显著地超过了SEQUEST软件。 PepSearch可以从http://compbio.sibsnet.org/projects/pepsearch免费下载。

 

1    材料和方法(Materials and Methods)

1.1   材料

1.1.1       实验谱数据集       实验CID谱数据集是由Keller博士[14]提供。 这个数据集由18个对照蛋白质的混合物通过串联质谱仪产生, 共有37 044条质谱。 根据母离子电荷不同, 可分为三个测试集: 测试集1, 包含504条一价母离子谱([M+H]+); 测试集2, 包含18496条二价母离子谱([M+2H]2+); 测试集3, 包含18 044条三价母离子谱([M+3H]3+) 这些对照蛋白质包括牛β-酪蛋白、 牛血清白蛋白、 鸡卵清蛋白、 兔磷酸化酶b 马肌红蛋白、 酵母磷酸甘露糖异构酶、 大肠杆菌碱性磷酸酶等。

1.1.2       蛋白质序列数据库       为了考虑计量算法的特性, 需要一个用于质谱搜索的蛋白质序列数据库。 用于测试集1 2 3进行数据库搜索所用的蛋白质序列数据库由Keller博士[14]提供。 该数据库共包含88 374个蛋白质序列, 是由人多肽序列数据库加上上述18个对照蛋白质的序列组成。

1.2   方法

CID谱线文件中读取实验峰、 母离子质量Mp以及母离子电荷Mc, 根据给定的条件PIT(母离子质量容限)MNET(最小末端酶切位点数目), 下面四个步骤将用于对该实验谱进行数据库搜索以鉴定相应的多肽序列(1)

Fig.1       PepSearch flow chart

(A) The experimental spectrum will be processed by normalization and reduction. (B) Based on the defined conditions of PIT and MNET, and the experimental parent ion mass, candidate peptide set will be built from protein sequence database. (C) The candidate peptides undergo preliminary scoring to give a ranked list of top 1000 best fit peptides. (D) These 1000 peptides are then subjected to a valid scorer to generate a final score and ranking of the peptides.

 

 

1.2.1       实验谱的标准化和简化实验       谱中每个实验峰的强度除以所有实验峰的平均强度, 以进行实验谱的标准化。 对那些标准强度小于0.01的实验峰, 作为杂峰去除。

1.2.2       建立候选多肽集合       对蛋白质序列数据库中序列实施虚拟酶切, 形成多肽数据库。 对于每一个多肽, 如果其末端酶切位点数目大于或等于MNET, 其离子质量在(Mp-PIT, Mp+PIT)之内, 则作为候选多肽。

1.2.3       预筛选与粗打分    对于候选多肽集合, 先用粗打分来预筛选, 过滤掉那些与实验谱明显不相配的多肽。

(1)理论谱      多肽经碰撞诱导解离(低能)形成碎裂离子(fragment ion), 按断裂键的位置可出现三类N端离子和三类C端离子(2) 因为碎裂过程是由多肽的物化性质和碰撞能量与装备控制的随机过程, 所以存在离子类型的概率分布。 现在可从已知序列的实验谱样本数据估计出此概率分布[15](1)

Fig.2       Fragmentation of peptide and resulting ions

(A) Peptide fragmentation. Fragments will only be detected if they carry at least one charge. If this charge is retained on the N terminal fragment, the ion is classed as either a, b or c. If the charge is retained on the C terminal, the ion type is either x, y or z. A subscript indicates the number of residues in the fragment. (B) The structures of the six singly charged fragment ions.

 

Table 1   Information about terminal ion types*

Ion-type

Term

Probability

Bonusa

Punishb

noise

0.0514

y

C

0.6895

13.4144

0.327324

b

N

0.6484

12.6148

0.370651

b-H2O

N

0.3859

7.50584

0.64748

y-H2O

C

0.2831

5.50778

0.755745

a

N

0.2329

4.53113

0.808665

y2

C

0.2089

4.0642

0.833966

b-NH3

N

0.1815

3.53113

0.862851

b2

N

0.1500

2.91829

0.896057

y-NH3

C

0.1495

2.90856

0.896584

* The Probability(k) of ion type k is taken from reference[15], and the probability of b2 ion is an experience value. a Bonus for present ion type k=Probability(k)/Probability(noise); b Penalty for missing ion type k=(1-Probability(k))/[1-Probability(noise)].

 

一价b型离子的质量是断裂键到N端所有氨基酸残基质量之和加上1(质子质量); 一价y型离子的质量是断裂键到C端所有残基质量之和加上19(H2O+H的质量) 类似, 可以求得其他离子质量的理论值。 然后, 除上电荷数, 就得到离子的质荷比。 于是, 构成候选多肽的理论谱(3)可用T=(t1,t2,...,ti,...tT)表示, 其中ti是质荷比, 从小到大排序。 在构建中, 当肽离子电荷为12, 构建一价by系列离子; 当肽离子电荷为3, 构建一价by和二价b2y2系列离子。

Fig.3       Theoretical spectrum of peptide ‘AMPK’

(A) Theoretical [M+H]+ and [M+2H]2+ spectrum. b1/72.0 means the mass-to-charge of b1 ion is 72.0. (B) Theoretical [M+3H]3+ spectrum.

 

(2)预筛选的计量分数          当理论谱T=(t1,...,tj,...,tT)和实验谱E=(e1,...,ei,...,eE)中一对碎裂离子(ei,tj)有相同的质荷比标称值(最近的整数), 称为两离子成对。 如果理论谱与实验谱中成对离子的比例低于某一阈值(这里取经验值30%), 则把该候选多肽过滤掉。 对于保留下来的候选多肽按下列粗粒分数FScore来计量TE的相似程度, 在正式细致计分之前把太不相似的候选肽快速过滤掉。

 

FScore(T,E) = FScore (NET)×FScore (Paired)×FScore (Unpaired)

 

FScore(NET)表示候选多肽的末端酶切位点数为NET时对上述粗粒分数的贡献。 因为知道高NET值的理论谱高匹配, 根据Keller[18]的统计结果, 这里当NET=0 12, FScore(NET)分别取0.2 28

FScore(Paired)表示理论谱与实验谱成对部分对粗粒分数的贡献。 对成对的理论离子tjT, 离子类型kj的出现奖分 若与tj成对的实验离子的强度为, 则成对离子(ei,tj)对粗粒分数的贡献为:

于是

FScore(Unpaired)表示理论谱中未与实验离子成对的部分对粗粒分数的贡献。 对于每个没有与任何实验离子成对的理论离子tj, 其离子类型为kj, 则其不出现罚分为P(kj|tj),

这里的B(kj|tj)与可从表1查得。 经过预筛选, 把按粗粒分数排序的前1000位候选多肽保留下来供下一步多肽鉴定使用。

1.2.4       多肽鉴定的计量分数    对于预筛选保留的1000条候选多肽, 用下列分数来计量每条候选多肽与实验谱之间的同义程度, 即在多大程度上认定这条实验谱是此候选多肽经CID碎裂产生的。

 

S(Total)= S(NET)×S(II)×S(M)×S(N)×S(MP),

S(NET)=FScore(NET)

 

S(II)表示因亚氨离子[+NH2=CH(R), immonium ions]出现而得分。 亚氨离子是一种低质荷比离子, 它的出现常表示肽序列含有氨基酸His Met Trp TyrPhe 当亚氨离子在实验谱中出现时, 若相关氨基酸在多肽序列亦出现则加分, S(II)=1+ρ; 若相关氨基酸不出现则减分S(II)=1–ρ 这里ρ0.15[7]

在此计量中, 与实验离子ei成对的理论离子tj可在±1U(m/z)质量容限内上下, |ei-tj|1U tj的离子类型为kj, 其出现给予奖分B(kj|tj), 不出现给予罚分为P(kj|tj), 则成对得分:

此地σ表示在质量容限内实验离子的偏差权重, 依赖于实验设备的精度, 这里取σ=0.4 如果

 

S(ei,tj|Paired) > P(kj|tj)

 

则称是同义匹配对, 表示可用tj注解ei 进而, 考虑tj的亚离子匹配, 其形成条件见2

Table 2   Condition of considering sub-ion types

Theoretical ion type

Sub-ion type

Condition

b

b-H2O

Corresponding peptide contains one of the acidic amino-acids S, T, D or E[17]

y

y-H2O

b

b-NH3

Corresponding peptide contains one of the acidic amino-acids R, K or Q[17]

y

y-NH3

b

a

None

y

y2

Parent ion charge less than 3

 

设与tj的亚离子t'j同义匹配的实验离子为 (当然, ei' 不与其他理论离子匹配),

的理论离子tj的匹配得分是:

于是, 理论谱跟实验谱中匹配部分的计量分数为:

对于没有实验离子匹配的理论离子tj, 其离子类型为kj, 不出现罚分为P(kj|tj), 则理论谱与实验谱中不匹配部分的计量分数为:

最后是谱匹配模式的计量分数。 如果两个同义匹配离子(如图4所示)是连续的或互补的, 则两个离子形成一种连合模式。 一段n个氨基酸的多肽, 其最多的连合模式数是3n–5 于是匹配模式的计量分数为:

 

S(MP)=(number of matched ion pairs)/(3n–5)

 

Fig.4       Match pattern between ions

 

按上述计量分数把1000个候选多肽与实验谱的同义程度排序, 得分最高的十个多肽予以保留。

 

2    结果(Results)

2.1   计量算法的性能比较

PepSearch, 将测试集1 2 3搜索人多肽序列数据库(见“材料和方法”中的材料一节)以鉴定多肽序列。 当结果中排名第一的多肽对应的蛋白质为18个对照蛋白质中的一个时, 就认为该搜索正确[14] 后面的搜索正确判别条件与此相同。 为了与目前通用软件SEQUEST比较, 取搜索条件MNET=0, PIT=3U(m/z) 与一般的数据库搜索时把[M+H]+ [M+2H]2+ [M+3H]3+谱一起搜索不同, 我们把三者分开搜索进行比较。 结果如图5所示。在测试集1 2 3, SEQUEST分别正确鉴定了125[14] 1658 1001[18]条多肽, PepSearch则分别正确鉴定了277 19371048条多肽, 鉴定的准确率明显高于通用鉴定软件SEQUEST的结果。

Fig.5       Performance of PepSearch and SEQUEST

Numbers in ovals show the number of peptides that were identified correctly by the respective software. The number in overlap region of two ovals means the number of peptides that were identified correctly by both approaches.

 

3是一个PepSearch搜索结果。 第一列是搜索到的多肽序列。 接下来五列分别对应打分函数中的S(NET) S(II) S(M) S(N)S(MP) 第七列和第八列分别是匹配的离子数和理论上总的离子数。 第九列是总的分数S(Total) 第十列是取自然对数后的总的分数。 最后一列是该多肽对应蛋白质的登录号。 在这个例子中, 黑体显示的排在第三的多肽是SEQUEST鉴定的多肽。 尽管其他计量分数几乎一样, S(NET)的不同使得正确的多肽得到鉴定。

Table 3   Example output from PepSearch

Peptide Seq.

SNET

SII

SM

SN

SMP

Mions

Tions

STotal

ln(STotal)

Reference

K.TPVSEK.V

8.00

1.00

1.59e+012

1.21e–001

0.692

8

10

1.07e+012

27.70

sp|P02769|ALBU_BOVIN

F.TPVSEK.P

2.00

1.00

1.59e+012

1.21e–001

0.692

8

10

2.67e+011

26.31

GP:AK027349_1

N.TPVSEQ.L

0.20

1.00

1.57e+012

1.21e–001

0.692

8

10

2.64e+010

24.00

GP:AF227192_1

E.TPVSKE.E

0.20

1.00

4.19e+011

1.21e–001

0.692

8

10

7.04e+009

22.67

GP:AL032821_3

E.TPVSQE.D

0.20

1.00

4.13e+011

1.21e–001

0.692

8

10

6.94e+009

22.66

GP:AJ132100_1

T.VVVSEK.F

2.00

1.00

3.84e+010

3.97e–002

0.615

7

10

1.88e+009

21.35

GP:AL132776_1

R.TPSVEK.P

8.00

1.00

1.18e+009

1.21e–001

0.692

8

10

7.94e+008

20.49

GP:AF155101_1

S.TPVSRT.T

0.20

1.00

2.90e+010

1.21e–001

0.692

8

10

4.88e+008

20.00

GP:M15799_1

K.TPVTDK.H

8.00

1.00

2.96e+009

1.47e–002

0.385

6

10

1.34e+008

18.71

GP:AF080598_1

E.TPVESQ.Q

0.20

1.00

7.02e+009

1.21e–001

0.692

8

10

1.18e+008

18.59

SW:STA2_HUMAN

 

4, 两个黑体显示的排在第一和第二的多肽说明了另一种情况。 尽管其他计量分数相同, 但理论离子与实验离子的匹配程度不同使得正确的多肽得到鉴定。 在这个例子中, 黑体显示的排在第二的多肽是SEQUEST鉴定的多肽。

Table 4   Another example output from PepSearch

Peptide Seq.

SNET

SII

SM

SN

SMP

Mions

Tions

STotal

ln(STotal)

Reference

A.LIVTQTMK.G

2.00

1.00

2.78e+018

1.47e–002

0.579

10

14

4.74e+016

38.40

sp|P02754|LACB_BOVIN

A.KPVTNFVK.N

2.00

1.00

7.93e+014

1.47e–002

0.579

10

14

1.35e+013

30.24

GP:AL096766_1

C.QVPAPEFF.T

0.20

1.00

1.49e+015

4.50e–002

0.684

11

14

9.15e+012

29.84

GP:S62220_1

K.NYTKTCGF.V

2.00

1.00

1.16e+015

4.82e–003

0.526

9

14

5.87e+012

29.40

GP:AK027360_1

R.PKVTVLNY.A

2.00

1.00

8.32e+013

1.47e–002

0.632

10

14

1.55e+012

28.07

GP:BC008922_1

D.ILVTETEE.L

0.20

1.00

8.66e+014

1.47e–002

0.579

10

14

1.48e+012

28.02

GP:AK022939_1

L.KPVVTNLY.L

0.20

1.00

8.48e+014

1.47e–002

0.579

10

14

1.44e+012

28.00

SW:VGLM_EBV

R.DLVVTFLE.G

2.00

1.00

5.41e+013

1.47e–002

0.579

10

14

9.22e+011

27.55

PIR2:A59255

D.LPDAQDKF.H

0.20

1.00

1.49e+014

4.50e–002

0.684

11

14

9.19e+011

27.55

GP:BC004923_1

K.KPSLLTKF.K

2.00

1.00

1.12e+013

4.50e–002

0.684

11

14

6.91e+011

27.26

GP:AJ250580_1

 

在测试集1, 有两个谱线是SEQUEST正确鉴定而PepSearch未能正确鉴定的。 分析PepSearch对这两个谱线的搜索结果见5

Table 5   Peptides missed by PepSearch in Data set 1

Rank#

SEQUEST

PepSearch

ΔScore

Identified peptide

Score*

Identified peptide

Score*

2

I.VTQTMK.G

26.19

N.VTKTMK.G

26.25

0.06

4

K.GLDIQK.V

27.05

K.IGDIKK.A

27.09

0.04

# The rank of the peptide identified by SEQUEST in PepSearch results. * Scores are from PepSearch top 10 results.

 

可见, SEQUEST正确鉴定的多肽与PepSearch结果中排列第一位的多肽, 序列和得分的差别都非常小。

2.2   对多肽鉴定的全面测试

通过对不同搜索条件(MNETPIT)下对测试集1 2 3的搜索, 我们分析了不同搜索条件对数据库搜索灵敏度的影响(6)

Table 6   Searching results under different conditions

Precursor ion type

Total spectra

MNET

PIT

Positive

[M+H]+

504

0

1.5

283

0

3.0

277

1

1.5

285

1

3.0

282

2

1.5

235

2

3.0

234

[M+2H]2+

18496

0

1.5

1875

0

3.0

1937

1

1.5

1851

1

3.0

1922

2

1.5

1409

2

3.0

1457

[M+3H]3+

18044

0

1.5

994

0

3.0

1048

1

1.5

986

1

3.0

1046

2

1.5

847

2

3.0

898

 

 

6结果, 结合考虑末端酶切位点的可靠性[18], 设置MNET=1PIT=3.0U(m/z)是最佳搜索条件(7)

 

 

Table 7   Search results with and without considering high charged ions*

Precursor ion type

Total spectra

Identified peptides with considering high charged ions

Identified peptides without considering high charged ions

[M+2H]2+

18 496

1922

1924

[M+3H]3+

18 044

1046

903

*Search conditions: MNET=1, PIT=3.0.

 

3    讨论(Discussion)

高效的算法对于按串行质谱进行多肽鉴定, 进而蛋白质鉴定的重要性是毋庸置疑的。 然而, 令人惊讶的是, 目前只有很少的程序公开提供给科研机构。 而且通用的商品软件的灵敏度与出错率还需改善。 其中一些基本的参数, 比如实验峰的强度如何考虑[19]仍然不清楚。 本文的目标不仅仅是提供一个可用于蛋白质鉴定的新程序, 我们更希望证明, 通过综合适当的信息和合适的计量算法, 对现有的工具, 例如SEQUEST, 还有很大的改进空间。 显然, 后继的工作还远远没有结束。 我们正准备通过借用串联质谱从头解析领域的技术, 例如离子类型概率的学习等, 进一步发展我们的计量算法。

 

致谢:非常感谢Andrew Keller博士提供实验质谱集和蛋白质多肽数据库以测试我们的软件。

 

References

1     Gavin AC, Bosche M, Krause R, Grandi P, Marzioch M, Bauer A, Schultz J et al. Functional organization of the yeast proteome by systematic analysis of protein complexes. Nature, 2002, 415(6868): 141147

2     Ranish JA, Yi EC, Leslie DM, Purvine SO, Goodlett DR, Eng J, Aebersold R. The study of macromolecular complexes by quantitative proteomics. Nat Genet, 2003, 33(3): 349355

3     Pandey A, Podtelejnikov AV, Blagoev B, Bustelo XR, Mann M, Lodish HF. Analysis of receptor signaling pathways by mass spectro-metry: Identification of vav-2 as a substrate of the epidermal and platelet-derived growth factor receptors. Proc Natl Acad Sci USA, 2000, 97(1): 179184

4     Baliga NS, Pan M, Goo YA, Yi EC, Goodlett DR, Dimitrov K, Shannon P et al. Coordinate regulation of energy transduction modules in Halobacterium sp. analyzed by a global systems approach. Proc Natl Acad Sci USA, 2002, 99(23): 1491314918

5     Forst CV. Network genomicsa novel approach for the analysis of biological systems in the post-genomic era. Mol Biol Rep, 2002, 29(3): 265280

6     Wu CC, MacCoss MJ. Shotgun proteomics: Tools for the analysis of complex biological systems. Curr Opin Mol Ther, 2002, 4(3): 242250

7     Eng JK, McCormack AL, Yates JR III. An approach to correlate tandem mass-spectral data of peptides with amino-acid-sequences in a protein database. J Am Soc Mass Spectrom, 1994, 5(11): 976989

8     Perkins DN, Pappin DJ, Creasy DM, Cottrell JS. Probability-based protein identification by searching sequence databases using mass spectrometry data. Electrophoresis, 1999, 20(18): 35513567

9     Pappin DJ, Hojrup P, Bleasby AJ. Rapid identification of proteins by peptide-mss fingerprinting. Curr Biol, 1993, 3(6): 327332

10    Clauser KR, Baker P, Burlingame AL. Role of accurate mass measurement (+/- 10 ppm) in protein identification strategies employing MS or MS/MS and database searching. Anal Chem, 1999, 71(14): 28712882

11    Field HI, Fenyo D, Beavis RC. RADARS, a bioinformatics solution that automates proteome mass spectral analysis, optimises protein identification, and archives data in a relational database. Proteomics, 2002, 2(1): 3647

12    Zhang N, Aebersold R, Schwikowski B. ProbID: A probabilistic algorithm to identify peptides through sequence database searching using tandem mass spectral data. Proteomics, 2002, 2(10): 14061412

13    Wool A, Smilansky Z. Precalibration of matrix-assisted laser desorption/ionization-time of flight spectra for peptide mass fingerprinting. Proteomics, 2002, 2(10): 13651373

14    Keller A, Purvine S, Nesvizhskii AI, Stolyar S, Goodlett DR, Kolker E. Experimental protein mixture for validating tandem mass spectral analysis. Omics, 2002, 6(2): 207212

15    Dancik V, Addona TA, Clauser KR, Vath JE, Pevzner PA. De novo peptide sequencing via tandem mass spectrometry. J Comput Biol, 1999, 6(3-4): 327342

16    Pevzner PA, Dancik V, Tang CL. Mutation-tolerant protein identification by mass spectrometry. J Comput Biol, 2000, 7(6): 777787

17    Bafna V, Edwards N. Scope: A probabilistic model for scoring tandem mass spectra against a peptide database. Bioinformatics, 2001, 17(Suppl 1): S1321

18    Keller A, Nesvizhskii AI, Kolker E, Aebersold R. Empirical statistical model to estimate the accuracy of peptide identifications made by MS/MS and database search. Anal Chem, 2002, 74(20): 53835392

19    Havilio M, Haddad Y, Smilansky Z. Intensity-based statistical scorer for tandem mass spectrometry. Anal Chem, 2003, 75(3): 435444